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более одного заказа 
в месяц 


2 За2019 
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стран присутствия, 


в том числе Гана и 
Кот-д'Ивуар 


городов, из них 500 
крупных 
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Хранилище данных Яндекс Go 
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данных в месяц 
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отчетов по 
различным 
тематикам 
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Метрики хранилища 


DMP - Usage КР! - АП teams 


Datasource updated at 09.05.2021 8:57:02 


Usage by layer - All teams 
Select Layer to drill down 
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dds 
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raw 


rep 
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udm 
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Report period Report date DAU/CNT 
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Production Kpi 
Select KPI to filter 
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Production by team 
Select Team to filter 


All teams 


Atlas 
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MassService 
Supply Eda 
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Select Object to drill down 
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О ЧЕМ ДОКЛАД? 

1. ЗАЧЕМ DWH МЕТРИКИ? 
II. КАКРЕАЛИЗОВАЛИ? 
ІІІ ЧТО ПОЛУЧИЛИ? 

IV. СТОИЛО ли ТОГО? 


ЗАЧЕМ DWH МЕТРИКИ? 
КАК РЕАЛИЗОВАЛИ? 
ЧТО ПОЛУЧИЛИ? 
СТОИЛО ЛИ ТОГО? 


1^ HighL cadis 
HL сеси 


Платформа данных Яндекс GO 


Sources YT 


Reportin 
Greenplum P 


Raw 
History 


increment 
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increment 


Replication —— 
P snapshot 
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-«—— snapshot 
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snapshot 
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ПОЧЕМУ ТАК СЛОЖНО? 


1^ High. cad 
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Архитектура слоев данных 
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Архитектура слоев данных 


Цель 


> Захватить сигналы 
источника 


Задачи 


› Собрать данные с 
источника as-is 


› Преобразовать их в 
объекты с понятным 
описанием и 

методом доступа - 
n n y HL HighLoad+ 


Весна 2021 
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Архитектура слоев данных 


Цель 


> Хранить операционные 
данные источника 


Задачи 


› Сформировать набор 
сущностей источника 


› Разложить данные по 
сущностям 
› Предоставить стандартный 


11 интерфейс доступа к данным ВЫ 


Архитектура слоев данных 
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Цель 


> 


Накапливать 
данные о сущностях 
доменной модели 


Задачи 


> 


Хранить детальную 
историю изменений 


Консолидировать 
данные между 
источниками 
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Архитектура слоев данных 
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Цель 


> 


Предоставлять 
витрины данных для 
анализа 


Задачи 


> 


Формировать данные в 
контексте бизнес- 
потребностей 


Оптимизировать 
доступ на чтение 


------------------------6ғ---------6ғ-----------05---555 
"и 
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Архитектура слоев данных 
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Цель 

› Хранить отчетные 
срезы 

Задачи 

› Формировать данные в 
контексте бизнес- 
потребностей 

› Готовить 


агрегированные 
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КАК СЛОИ СВЯЗАНЫ C 
СИСТЕМАМИ? 
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Архитектура слоев данных 
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Source Queue 


› Забирает инкременты и 
снепшоты с источников 
различных типов 


› Преобразовывает 
данные в устойчивый к 
изменениям формат 


7 (F) se 


Архитектура слоев данных 


------.----------6-------------------------------------5 
о 
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Source Queue YT (Data Lake) 


› Полуструктурированные 
данные 


› Каркас MapReduce 


» Аналоги экосистемы 
hadoop 
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Архитектура слоев данных 


------.----------6---------------------6---------------5 
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Source Queue YT (Data Lake) Greenplum (Data warehouse) 
aj › Различные аа-һос-запросы 
› Большое количество join 
› Малое время отклика 


1^ High. cad 
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Архитектура слоев данных 
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Source Queue YT (Data Lake) Greenplum (Data warehouse) Reporting 


> Кубы данных 


> Отчеты и дашборды 
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s (ну жшше" 


Архитектура слоев данных 


------.----------6------------------------------------ 
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Source Queue YT (Data Lake) Greenplum (Data warehouse) Reporting 
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Архитектура слоев данных 


М5 55А5 
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Source ют 
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Платформа данных Яндекс GO 


Sources YT 


Reportin 
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P snapshot 
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snapshot 
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І ТАТ IOM " YA/LJ matnining 
1. зачем L VV | метрики $ 


КАК РАЗВИВАТЬ? 
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Организация развития 


Задачи платформы данных 
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1^ HighLoad 
(нь) Ha eres - 


Организация развития 


Задачи платформы данных Есті) 
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Организация развития 


Скорость внедрения Долгосрочные 
инициатив высокая проекты 


Мда) 


Задачи платформы данных Есті) 


БД. 


Быстрый результат Качество архитектуры 
может быть важнее важнее сиюминутных 
качества (в точке) задач 
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Домены данных 
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Данные сгруппированы по предметной области – домену (Domain) 


> В одном домене может быть несколько объектов (таблиц) 


> За несколько доменов отвечает одна команда 


) Домены могут быть разных типов 
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Домены данных 


| Данные сгруппированы no предметной области — домену (Domain) 


? В одном домене может быть несколько объектов (таблиц) 
? За несколько доменов отвечает одна команда 


? Домены могут быть разных типов 


Source Domain Core Domain Business Domain 

? Связаны с источником ? Связаны с крупной ? Связаны с потребителями 
данных областью бизнеса данных 

? Структура подогнана под ? Структура подогнана под ? Структура подогнана под 
источник минимизацию изменений удобства использования 

> Включают в себя очистку, > Включает объединение ? Фактически представляет 
дедубликацию, данных из разных собой 
приведение к стандартам источников, генерацию специализированные 
итп. суррогатных ключей и т.п. витрины и/или отчеты 
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Домены данных 


------2.----------4---:---:-----6--------------------------5 
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Source Domain Core Domain Business Domain 


5О (нь) HighLoad+ 


Домены данных 


Собрать Стандартизировать Сохранить Предоставить Проанализировать 
RAW ODS DDS CDM REP 
Source Domain Core Domain Business Domain 
) 
I 
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Domain "^ —————— — > Domain 
І 
I 
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І Соге 
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Source ! p x UN 


Domain І | | 
Соге 1 Business 


Source А Domain Domain 


Domain l - 
51 М І HL HighLoad- 
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1 DWH 


КАК УПРАВЛЯТЬ 
(БЕС)ПОРЯДКОМ? 


1^ HighLoad 
52 (ише 


Почему (бес) 


>900 


уникальных отчетов по 
пользователей различным 
данных в месяц тематикам 


>200 >5500 


доменов данных объектов 
хранилища 
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4 


крупных бизнес- 


юнита: Такси, Еда, 


Лавка, Драйв 


200 


коммитов в день 


порядок? 


=; 


5П6 


накопленных 
данных по четырем 
бизнес-юнитам 


500 


merged Pull 
Request B месяц 
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Т. Проблема: 


развитием крупного 
DWH сложно 
управлять 
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1^ High. cad 
(нь) иси ли 


Data Mesh 


Domain dataownedG © 
served by 
cross-functional team -< 


New Data Domains can be created 
correlating data from other domains 


Domain oriented 

/ data served as 
r X -- тә е а product for any other 

Domain's internal data pipeline uses. < = д ас" domain to use 


common self-serve data infra 


Data infra engineers 8 


Data Infra as a Platform 
torage, pipeline, catalogue, Access control, etc.) 
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1^ HighL cadis 
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Data Mesh 


Domain data owned & 
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Domain's internal data pipeline и565. 
common self-serve data infra 


Data infra engineers 8 | 779) 
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New Data Domains can be created 
correlating data from other domains 


Domain oriented 
data served as 
2, em a product for any other 
| . En domain to use 
о 


Data Infra as a Platform 
Storage, pipeline, catalogue, Access control, etc.) 


Данные – это продукт 


DISCOVERABLE /® 
Domain ADDRESSABLE 


Polyglot Data Products TRUSTWORTHY 
(DEFINED & MONITORED 51/05) 9 


stF-DESGuBNG DA 


INTER OPERABLE 
(GOVERENED BY OPEN STANDARDS) 


E SECURE Q 
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Т. Проблема: 11. Решение: 


58 


развитием крупного покрыть работу 
DWH сложно DWH метриками 
управлять 


1^ High. cad 
(н) Ha eres та 


Данные – это продукт 


| Витрины, измерения, любые наборы данных – это продукт 


| Аналитики, DS, МІ-специалисты, менеджеры – пользователи продукта 


> Удобство использования 

> Частота использования 

> Легкость обнаружения 

> Качество данных 

> Понятное описание семантики 

> Интегрируемость данныхи стандарты 
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Данные – это продукт 


| Витрины, измерения, любые наборы данных – это продукт 


| Аналитики, DS, МЕ-специалисты, менеджеры – пользователи продукта 


> Удобство использования 

> Частота использования 

> Легкость обнаружения 

› Качество данных Покроем метриками 
> Понятное описание семантики 

> Интегрируемость данныхи стандарты 
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Данные – это продукт 
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Продуктовая команда -- независимая единица поставки счастья 


Data Partner 


| Владелец данных (= продукта) 


> 


м м м м 


Коммуникации с пользователем 
Управление требованиями 
Развитие домена 

Постановка задач 


Создание метаданных 
витрин/отчетов 


Data Engineer 


| Разработчик данных (= продукта) 


› 
› 
› 


Выполнение задач на разработку 
Реализация ЕТ ЕТ на базе платформы 


Создание сложных алгоритмов 
агрегации данных/подсчетов 


Физическая реализация метаданных на 
доступных инструментах 
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Данные – это продукт 


| Продуктовая команда — независимая единица поставки счастья 


Data Partner 


| Владелец данных (= продукта) 


› 


м м ~ 


Коммуникации с пользователем 
Управление требованиями 
Развитие домена 

Постановка задач 


Создание метаданных 
витрин/отчетов 


Data Engineer 


| Разработчик данных (= продукта) 


› 
› 
› 


Выполнение задач на разработку 
Реализация ЕТ ЕТ на базе платформы 


Создание сложных алгоритмов 
агрегации данных/подсчетов 


Физическая реализация метаданных на 
доступных инструментах 


| Работу продуктовых команд будем оценивать через метрики 
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ЗАЧЕМ DWH МЕТРИКИ? 
КАК РЕАЛИЗОВАЛИ? 
ЧТОПОЛУЧИЛИ? 
СТОИЛО ЛИ ТОГО? 


1^ HighL cadis 
HL сеси 


І. Проблема: 11. Решение: 
оазвитием крупного покрыть работу 
DWH сложно DWH метриками 
управлять 


111. Идея: 
использовать 
данные систем DWH 
в самом DWH 
(«DWH для DWH») 


1^ High. cad 
А HD corde 


DHW для DWH 


| Почему бы He рассмотреть DWH как источник информации для самого DWH? 


Транзакционная информация 


| Что происходит? 


› 


оу м м ~ 
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Логи обращения к Greenplum 

Логи обращения к YT 

Логи обращения к Tableau 

Логи обращения к М5 55А5 

Логи ошибок по объектам 
Информация об отставании данных 


Статическая информация 


| С чем происходит? 


> 
> 
> 


Метаданные систем 


Данные из системы учета пользователей 
Метаданные из нашего репозитория 
метаданных 


Граф связей между тасками ETL- 
процессов 
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MetaDWH 


Source Domain 


YT 
Логи 
использования 
Метаданные 
объектов 
М5 55А5 


Логи 
использования 
Метаданные 
обьектов 


Greenplum 


Логи 
использования 


Метаданные 
объектов 
Tableau 


Логи 
использования 
Метаданные 
объектов 


стан Platform 


Профиль Метаданные 
роф A Логи запусков 
пользователя тасок 
Метаданные 
Орг.Структура || Логи проверок 
р руктур P р объектов 
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ObjectField 


Core Domain 


MetaField 


MetaObject 


CheckLogs 


GP 
ObjectField 


E EE cu 
ҮТ СР 
E 


Department 


Workbook 
Usage 


Business Domain 


Техническая информация 


Витрина по размеру 
данных 


Витрина по 
потреблению 
ресурсов 


Использование объектов 


Витрина по 
использованию 
объектов 


Витрина по 
использованию 
отчетов 


Витрины с метаданными 


Метаданные 
объектов 


Витрина по таскам 


Витрина по 
результатам 


HL) HighLoad= 


Весна2021 


Greenplum 


Source Domain 


Greenplum 


Логи 
использования 
Метаданные 
объектов 
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Core Domain Business Domain 


GP 
ObjectField 


GP 
Object 
GP 
Que 


Person 


HL) HighLcade 
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otaff 


Source Domain | Core Domain Business Domain 


Greenplum 


Логи ! 
использования р 
Метаданные ' 
объектов р СР 
i ObjectField 


Staff 


Профиль 
пользователя 


Person 


Opr.Crpykrypa ' 
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УТ 


Source Domain Core Domain Business Domain 


Greenplum 


YT ' 
Norn Norn | р 
использования использования B | 
Метаданные Метаданные р i 
объектов объектов ' YT GP | 
‚ |ОбјесеНеја ObjectField i 


Staff 


Профиль 
пользователя 


Орг.Структура ' 
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MS ЗЗАз 


Source Domain | 


Greenplum 


YT ' 
Norn Логи : 
использования использования 1 
Метаданные Метаданные | 
обљектов обљектов р УТ 
‚ [ObjectField 


М5 55А5 


Логи р 
использования Н 
| 

Метаданные р 
объектов i 


Staff 


Профиль 
пользователя 


| cue | 


Орг.Структура р БЕН 
р Еа ge 


Core Domain 


E 


um 


GP 
ObjectField 


Business Domain 


HL High oad 


Весна2021 


Потреб 


Source Domain 


Greenplum 


Логи Логи 
использования использования 
Метаданные Метаданные 
объектов объектов 


Логи 
использования 
Метаданные 
объектов 


Staff 


Профиль 
пользователя 


Орг.Структура 
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ление ресурсов 


Core Domain Business Domain 


: | Техническая информация 


| р Витрина по размеру 
i р данных 


| Витрина по 
потреблению 


ресурсов 


| YT GP 
‚ |ObjectField ObjectField 


Person 
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Greenplum 


Логи 
использования 


лей 


Очег 


i р Витрина по размеру 
| р данных 
Метаданные Метаданные : р ресурсов 
объектов объектов р УТ GP | 
| [ObjectField ObjectField | 
Метаданные Метаданные р 
объектов объектов р 
Орг.Структура | | Cube — Workbook 
‚ | Usage пе Usage | 


Source Domain | Core Domain Business Domain 
р Витрина по 
Tableau MS SSAS 
Staff 
o2 HL) HighLoad= 


Техническая информация 
Логи 
использования 
потреблению 

Логи Логи р 

использования использования р 
Профиль р р 
пользователя : ; 
Person Workbook ' 

Весна 2021 


ІН 


Greenplum 


Логи 
использования 


) і Техническая информация 
УТ 
р р Витрина по размеру 
Логи | | 
использования р : 
р р потреблению 
Метаданные | р ресурсов 
| [ObjectField ObjectField i 


Метаданные 
объектов 
Tableau MS SSAS i 


Логи Логи р 
использования использования Н 
| 

Метаданные Метаданные : 
объектов объектов р 

| 


Staff | 

Профиль ' 
пользователя р 
| 
Орг.Структура ' Cube р 
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Source Domain Core Domain Business Domain 
Витрина no 
Использование объектов 


р Витрина по 
р использованию 
1 объектов 


Витрина по 
! использованию 
отчетов 


MetaField 


Greenplum 


Логи 
использования 


‚ Техническая информация 
УТ 
' Витрина по размеру 
использования i 
| потреблению 
Метаданные | Р р ресурсов 
| г да si 
‚ [ObjectField ObjectField д 


Source Domain Core Domain Business Domain 
Витрина no 
Использование объектов 


Метаданные 
объектов 
Tableau MS SSAS 


Логи Логи р 
использования использования ! 
Метаданные Метаданные р 
объектов объектов р 


Staff Platform 


Профиль 
пользователя 


Витрина по 
использованию 
объектов 


Витрина по 
использованию 
5 отчетов 


| 
Метаданные ' i 

‚ | Cube Workbook : 
| : 


Opr.Crpykrypa 


54 HL) High. cade 


Весна2021 


Витрины по метаданным 


Source Domain | Core Domain Business Domain 


| ! Техническая информация 


УТ ШЕГІ ! 
р ; Витрина по размеру 
использования ! ' 
р ! Витрина по 
р ! потреблению 
Метаданные Метаданные 1 ресурсов 
объектов объектов р 
Tableau MS SSAS | 


Логи Логи ' 
использования использования р 
Метаданные Метаданные 
объектов объектов 


Staff Platform 


Профиль : 
пользователя р 
Person 
врела Метаданные б) 


55 ні) HighLoad+ 
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Greenplum 


Логи 
использования 


резон СР 
mom i" ObjectField 


Использование объектов 


Витрина по 
использованию 
| обљектов 


Витрина по 
использованию 
отчетов 


Витрины с метаданными 


р Метаданные 
р объектов 


знания о запусках EIL 


Source Domain Core Domain Business Domain 


| Техническая информация 


Витрина по размеру 
данных 


MetaField 


Greenplum 


Логи 
использования 


УТ | 
Логи ! 
использования | р 
Domain | 

i Витрина no 

| потреблению 


объектов ' р 
| [ObjectField ObjectField р 


| Использование объектов 
CheckLogs 


Метаданные 
объектов 
Tableau MS SSAS | 


Логи Логи 
использования использования 
Метаданные Метаданные р 
объектов объектов Н 


Staff Platform 


Метаданные | 
Логи запусков | : 
тасок ] 
Орг.Структура || Логи проверок метаданные 
roS TPYKTyp ровер объектов 


56 ні) HighLoad+ 


Весна 2021 


р Витрина по 
| использованию 
i объектов 


Витрина по 
использованию 
отчетов 


Витрины с метаданными 


Метаданные 
объектов 


Профиль 
пользователя 


MetaDWH 


Source Domain 


YT 
Логи 
использования 
Метаданные 
объектов 
М5 55А5 


Логи 
использования 
Метаданные 
обьектов 


Greenplum 


Логи 
использования 


Метаданные 
объектов 
Tableau 


Логи 
использования 
Метаданные 
объектов 


стан Platform 


Профиль Метаданные 
роф A Логи запусков 
пользователя тасок 
Метаданные 
Орг.Структура || Логи проверок 
9 руктур P р объектов 
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ObjectField 


Core Domain 


MetaField 


MetaObject 


CheckLogs 


GP 
ObjectField 


E EE cu 
ҮТ СР 
E 


Department 


Workbook 
Usage 


Business Domain 


Техническая информация 


Витрина по размеру 
данных 


Витрина по 
потреблению 
ресурсов 


Использование объектов 


Витрина по 
использованию 
объектов 


Витрина по 
использованию 
отчетов 


Витрины с метаданными 


Метаданные 
объектов 


Витрина по таскам 


Витрина по 
результатам 
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ЗАЧЕМ DWH МЕТРИКИ? 
КАК РЕАЛИЗОВАЛИ? 
ЧТО ПОЛУЧИЛИ? 
СТОИЛО ЛИ ТОГО? 


1^ HighL cadis 


Т. Проблема: 


развитием крупного 
DWH сложно 
управлять 


111. Идея: 


использовать 
данные систем DWH 
в самом DWH 


(«DWH для DWH») 
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ТТ. Решение: 


покрыть работу 
DWH метриками 


IV. Результат: 


аналитика по работе 
и развитию самого 
DWH 


1^ High. ога 
(нь) Ha eres di 


60 


ЧЕМ ПОЛЬЗУЮТСЯ В 
ХРАНИЛИЩЕ? 


Профиль объекта 


Obj e ct p r ofi 1 е Object usage Include Robots DMP activity Sort by System + Object 
Datasource updated at 15.09.2020 12:26:12 Last3 months т [Тие “ | [False 7 | [Requests "|| 7 | (ева ell new! ... У Apply 
General info Department [Name "| J Fields 
Object dm_order Usage Users Daily Usage Мате Туре Description 
Path IIhome/eda-dwh/cdm/order/dm order 1344 1 | cancel reason group .. String Название группы 
System ву С : | | | cancel reason id Int Идентификатор прич.. 
Гауег М cdm 728 1 | cancel reason name String Описание причины OT.. 
Domain [Business Domain] eda etl new.order 677 5 | cancel reasons syste.. Boolean Флаг автоматической.. 
DMP Team 555 1 ] cancelled lat Double Широта координат ky. 
Production Пад ~ True 514 2 | cancelled lon Double Долгота координат ky.. 
270 3 РЕЯ 
СОМ ог ВЕР Пад у True Бе | commission value w v.. Double Сумма комиссии, KOT.. 
Deprecated flag x False 55 1 confirmed flg Boolean Индикатор подтверж.. 
Тесћ Над x False 50 1 cooking type String Тип готовки. *Опреде.. 
29 1 corp order ћд Boolean Индикатор корпорати.. 
country id Int. Идентификатор стра. 
User [ country name String Наименование страны 
6 077 courier assigned lat Double Широта координат ку. 
Staff login Usage Daily Usage 
Usage courier assigned lon Double Долгота координат ку. 
1344 221% | А А 
163 263 ! courier balance id Int Идентификатор курь.. 
872 143% | | | | 
850 140% | courier delay sec Int Опоздание курьера в.. 
35 728 12,0% | courier id Int Идентификатор курь.. 
Users 8 555 9,1% | | courier selfemploeyed .. Boolean Индикатор самозанят.. 
5 
475 7,8% courier service id Int Идентификатор Kypb.. 
Daily usage dynamic 376 6,2% қ — 
courier service income.. Int Идентификатор дохо.. 
192 3,2% 
100 16% courier service name String Наименование Kypbe. 
87 1,4% courier type String Тип курьера (пеший, .. 
o ha i 5 55 86 1,4% courier type code String Тип передвижения ку 
83 14% courier username String Фамилия и имя Kypbe.. 
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Профиль объекта 


Н Н Object usage Include Robots DMP activity Sort by System + Object 
Object pror aa 12:26:12 Last3 months “ [Tue 7 | [Fase 7 | Көшені "|| 7 | [ова еп лем!" | | АРРУ 
General info Department “ате T Fields 
Object dm order Usage Users Daily Usage Nama Type Description 
Path Ilhome/eda-dwh/cdm/order/dm order 1344 1 | cancel reason group . String Название группы 
System ву 878 3 | | | cancel reason id Int Идентификатор прич.. 
Гауег В cdm = | | | сапсе!_геазоп_пате String Описание причины OT.. 
Domain [Business Domain] eda etl new.order 677 5 | cancel reasons syste.. Boolean Флаг автоматической.. 
DMP Team 555 1 ] cancelled lat Double Широта координат ky. 
Production Пад ~ True 514 2 | cancelled lon Double Долгота координат ky.. 
CDM ог ВЕР flag v True 6 : commission value w v.. Double Сумма комиссии, KOT.. 
Deprecated Пад x False 55 1 confirmed flg Boolean Индикатор подтверж.. 
Tech flag x False 50 1 cooking type String Тип готовки. *Опреде.. 
29 1 corp order ћд Boolean Индикатор корпорати.. 
country id Int. Идентификатор стра 
User country name String Наименование страны 
Staff login T Daily Usage courier assigned lat Double Широта координат ку. 
courier assigned lon Double Долгота координат ky. 
1 ee de | | | | courier balance id Int Идентификатор курь.. 
850 14.0% | courier delay sec Int Опоздание курьера в.. 
35 728 12,0% | | courier id Int. Идентификатор курь.. 
Џзег5 555 9,1% | | courier selfemploeyed .. Boolean Индикатор самозанят.. 
P 475 7,8% courier service id Int Идентификатор курь.. 
Daily usage dynamic 376 6,2% қ — 
T 29 courier service income.. Int Идентификатор дохо.. 
100 16% courier service name String Наименование курье. 
87 14% courier type String Тип курьера (пеший, .. 
86 1,4% courier type code String Тип передвижения ку 
83 14% courier username String Фамилия и имя Kypbe. 
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Профиль объекта 
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Object profile 


Datasource updated at 15.09.2020 12:26:12 


General info 
Object 

Path 

System 

Layer 

Domain 

DMP Team 
Production flag 
CDM or REP flag 
Deprecated flag 
Tech flag 


6 077 
Usage 


35 


Users 


Daily usage dynamic 


00 05 


dm order 
I/home/eda-dwh/cdm/order/dm order 
ту 
В cdm 


[Business Domain] eda etl new.order 


v True 
у True 
х False 
X False 
163 263 
5 8 
10 15 20 


Department 


User 
Staff login 


| Name 


Object usage 


Last 3 months 


Include Robots 


J | 


Usage 


1344 
878 
850 
728 
677 
555 
514 
270 

86 
55 
50 
29 


True 


Users 


А-а-а ом сто = о о = 


Daily Usage 
| 


DMP activity 


| |False 


Daily Usage 
| 


Sort Бу 


System 
* ] | Requests т | [үт 
Fields 
Name 


cancel reason group .. 
cancel reason id 

cancel reason name 
cancel reasons syste.. 
cancelled lat 
cancelled lon 
commission value w v.. 
confirmed flg 

cooking type 

corp order #9 
country id 

country name 

courier assigned lat 
courier assigned lon 
courier balance id 
courier delay sec 

courier id 

courier selfemploeyed .. 
courier service id 
courier service income.. 
courier service name 
courier type 

courier type code 


courier username 


Type 
String 
Int 
String 
Boolean 
Double 
Double 
Double 
Boolean 
String 
Boolean 
Int 
String 
Double 
Double 
Int 

Int 

Int 
Boolean 
Int 

Int 
String 
String 
String 
String 


Object 


[eda ell new Fae T 


Description 

Название группы 
Идентификатор прич.. 
Описание причины от.. 
Флаг автоматической.. 
Широта координат ку. 
Долгота координат ку.. 
Сумма комиссии, кот.. 
Индикатор подтверж.. 
Тип готовки. *Опреде.. 
Индикатор корпорати.. 
Идентификатор стра 
Наименование страны 
Широта координат ку. 
Долгота координат ку. 
Идентификатор курь.. 
Опоздание курьера в.. 
Идентификатор курь.. 
Индикатор самозанят.. 
Идентификатор курь.. 
Идентификатор дохо.. 
Наименование курье. 
Тип курьера (пеший, .. 
Тип передвижения ку. 


Фамилия и имя курье. 


Apply 
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Object profi le Object usage Include Robots DMP activity Sort by System + Object 
E > || » || x] "EE = Аррју 
Datasource updated at 15.09.2020 12:26:12 Last 3 months [Tue | Раве ] | Requests | ыш eda ell new/ ... 


General info Department “ате T Fields 
Object dm order Usage Users Daily Usage Name Type Description 
Path IIhome/eda-dwh/cdm/order/dm order 1344 1 | cancel reason group . String Название группы 
System ву 878 3 | | | cancel reason id Int Идентификатор прич.. 
850 1 
Layer E cdm 728 1 cancel reason name String Описание причины OT.. 
Domain [Business Domain] eda etl new.order 677 5 | cancel reasons syste.. Boolean Флаг автоматической.. 
ОМР Теат 555 1 | cancelled lat Double Широта координат ky. 
Production Пад ~ True 514 2 | cancelled lon Double Долгота координат ку.. 
CDM ог ВЕР flag v True 0 3 commission value w v.. Double Сумма комиссии, KOT.. 
86 1 
Deprecated Пад x False 55 1 confirmed flg Boolean Индикатор подтверж.. 
Tech flag х False 50 1 cooking type String Тип готовки. *Опреде.. 
29 1 corp order flg Boolean Индикатор корпорати.. 
country id Int. Идентификатор стра 
country name String Наименование страны 
User y | 
6 077 courier assigned lat Double Широта координат ку. 
Staff login Usage Daily Usage 
Usage courier assigned lon Double Долгота координат ky. 
1344 221% | А 4 
163 263 ! courier balance id Int Идентификатор курь.. 
872 143% | | | 
850 14.0% | courier delay sec Int Опоздание курьера в.. 
35 728 12,0% | courier id Int. Идентификатор курь.. 
Users 8 555 9,1% | | courier selfemploeyed .. Boolean Индикатор самозанят.. 
5 
475 7,8% courier service id Int Идентификатор курь.. 
Daily usage dynamic 7 
аа 376 62% courier service income.. Int Идентификатор дохо.. 
192 32% | | 
100 16% courier service name — String Наименование курье. 
87 14% courier type String Тип курьера (пеший, .. 
86 1,4% courier type code Тип передвижения ку 
00 05 10 15 20 83 14% 
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Использование объектов 


Obiect usage dashboard Report period Report даје Chart type DAU/CNT System Robots DMP activity Production fig 
Eee updated 9 15.09.2020 8:16:42 Last4 months “) [18092020 Treemap 7 | (рай МЕГЕ) v | [False “| [False > | [True > 
Object Department | | General info 44.09.2020 User | 


Select Object to drill down Usage | Objects 


~ " 709 


; А 4020 109 
485 Used Objects 


3426 106 


2847 102 

= 22,6% 2774 128 
4 Prod Usage % 2564 56 
2549 85 
NANI 344 2303 97 
Users 2109 42 
2013 76 
9 157 1896 88 

7657 Usage DAU 1853 125 


1843 122 
System 1835 72 
GP pu 11,5% 1736 115 
үт ИШЕНЕ 885% 107 85 
таап ава 
Schema Production T 
Production Domain 
em ШШШ | 
dis ГГ Usage | Objects 
ads Lr M (Source Domain] eda etl new.bigfood 37 770 365 
[Unknown Domain] 28 682 HI 
ini 250% 0000 [Source Domain] taxi etl.mdb 19 138 178 
rep 0,00% Source Domain] taxi etl.taximeter 7573 61 
tech 4,29% Business Domain] taxi etl.geo 3723 25 
шіт 0,08% (Source Domain] taxi etl.appmetrica 3 600 29 
[Source Domain] eda etl.bigfood 3420 88 
Team 4 Source Domain] taxi ell.da 212 8 
Select Team to drill down 
Business Domain] eda etl.marketplace 2 090 4 
Atlas [Business Domain] taxi. etl.supply 1969 44 
Botnia Source Domain] taxi etlzendesk hing 1716 9 
Marketplace 30,0176 Source Domain] taxi etl.googledocs 1245 21 
Supply Eda 34,71% Source Domain]eda etl newlavka 1c 1228 31 
Supply Taxi Business Domain] core, etl.geo 1173 9 


[Source Domain] taxi et.amocrm 1106 11 


1^ HighLoad 
65 HL) Нед 


Использование объектов 


Report period 


Object usage dashboard 


Datasource updated at 15.09.2020 8:16:42 


Object 
Select Object to drill down 


Department 


Last 4 months 


Report date Chart type DAU/CNT System Robots DMP activity Production #9 
13.09.2020 Treemap + | |DAU - | (All) False + | |False ~ | [True 
| вепега! info 14.09.2020 User | 
" 709 Usage | Objects 
HU 4 020 109 
485 Used Objects — = 
2847 102 
°, 
JU = та 
4 sage 2564 56 
2549 85 
NANI 344 2303 97 
Users 2109 42 
2013 76 
9 157 1896 88 
7657 Usage DAU 1853 125 
$ 1843 122 
ystem 1835 72 
GP [ 11,5% 1736 115 
үт СС 1707 85 
а аза ява 
Schema Production т 
Production Domain 
cdm 


rep 0,00% 

tech 4,29% 

udm 0,08% 
Team 


Select Team to drill down 


Atlas 
Demand 
Marketplace 
Supply Eda 
Supply Taxi 


30,0196 
34,71% 


Source Domain] 


[Source Domain] 
Source Domain] 
Business Domai 
Source Domain] 
[Source Domain] 
Source Domain) 
Business Domai 
Business Domai 
Source Domain] 
Source Domain] 
Source Domain] 


Business Domai 


[Source Domain] 


eda_etl_new.bigfood 


[Unknown Domain] 


taxi_etl.mdb 
taxi_etl.taximeter 

in] taxi_etl.geo 
taxi_etl.appmetrica 
eda_etl.bigfood 

taxi etl.da 

in] eda etl.marketplace 
in] (ахі etl.supply 
taxi et.zendesk hiring 
taxi etl.googledocs 
eda etl new.lavka 1c 
in] core etl.geo 

taxi et.amocrm 


Usage | Objects 


37 770 
28 682 
19 138 
7573 
3723 
3 600 
3420 
2132 
2090 
1969 
1716 
1 245 
1 228 
1 173 
1106 


365 
ШУ 
178 


11 HighLoad« 
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Object usage dashboard 


Datasource updated at 15.09.2020 8:16:42 


Object 


Select Object to drill down 


Report period 
Last 4 months 


Department 


Report date Chart type DAU/CNT System Robots DMP activity Production #9 
13.09.2020 Treemap + | |DAU - | (All) False + | |False ~ | [True 
General info 14.09.2020 User | 
709 Usage | Objects 
Ж 4020 109 
485 Used Objects — = 
2847 102 
°, 
"ond - = та 
4 sage 2564 56 
2549 85 
NANI 344 2303 97 
Users 2109 42 
2013 76 
9 157 1896 88 
7657 Usage DAU 1 853 125 
$ 1843 122 
ystem 1835 72 
GP ШШ 11,5% 1736 115 
Yr СС 1707 85 
а аза ява 
Schema Production т 
Production Domain 
cdm 


rep 0,00% 

tech 4,29% 

шіт 0,08% 
Теат 


Select Team to drill down 


Atlas 
Demand 
Marketplace 
Supply Eda 
Supply Taxi 


30,0196 
34,71% 


Source Domain] 


[Source Domain] 
Source Domain] 
Business Domai 
Source Domain] 
[Source Domain] 
Source Domain) 
Business Domai 
Business Domai 
Source Domain] 
Source Domain] 
Source Domain] 


Business Domai 


[Source Domain] 


eda_etl_new.bigfood 


[Unknown Domain] 


taxi_etl.mdb 
taxi_etl.taximeter 

in] taxi_etl.geo 
taxi_etl.appmetrica 
eda_etl.bigfood 

taxi etl.da 

in] eda etl.marketplace 
in] (ахі etl.supply 
taxi et.zendesk hiring 
taxi etl.googledocs 
eda etl new.lavka 1c 
in] core etl.geo 

taxi et.amocrm 


Usage | Objects 


37 770 
28 682 
19 138 
7573 
3723 
3 600 
3420 
2132 
2090 
1969 
1716 
1 245 
1 228 
1 173 
1106 


365 
ШУ 
178 


11 HighLoad« 


Использование объектов 


Object usage dashboard 


Datasource updated at 15.09.2020 8:16:42 


Report period 
Last 4 months 


Report date 


Chart type 


DAU/CNT System 


Robots 


DMP activity 


Production fig 


13.09.2020 


Treemap 


+ | [Dau 7 | [an 


False 


ж False 


- True 


Object 


| Department | 


Select Object to drill down 


68 


General info 14.09.2020 
„ле УХ 709 
485 Used Objects 


= 22,6% 

4 Prod Usage % 

329 344 
Users 

EN 9 157 

7457 Usage DAU 


System 
GP pu 11,5% 
YT ps 88,5% 
Schema Production 7. 
Production 
cdm 


rep 0,00% 

tech 4,29% 

udm 0,08% 
Team 


Select Team to drill down 


Atlas 

Demand 

Marketplace 30,01% 
Supply Eda 34,71% 
Supply Taxi 


Domain 


Source Domain] 


[Source Domain] 
Source Domain] 
Business Domai 
Source Domain] 
[Source Domain] 
Source Domain) 
Business Domai 
Business Domai 
Source Domain] 
Source Domain] 
Source Domain] 


Business Domai 


[Source Domain] 


Usage | Objects 


109 
106 
102 
128 
56 
85 


eda etl new.bigfood 


[Unknown Domain] 


taxi etl.mdb 

taxi etl.taximeter 

in] taxi etl.geo 

taxi et.appmetrica 
eda etl.bigfood 

taxi etl.da 

in] еда etl.marketplace 
in] (ахі etl.supply 
taxi et.zendesk hiring 
taxi etl.googledocs 
eda etl new.lavka 1c 
in] core etl.geo 

taxi et.amocrm 


Usage | Objects 


37 770 
28 682 
19 138 
7573 
3723 
3 600 
3420 
2132 
2090 
1969 
1716 
1 245 
1 228 
1 173 
1106 


365 
ШУ 
178 


1^ HighL сасе 


Использование объектов 


H Report period Report date Chart type DAU/CNT System Robots DMP activity Production #9 
Object usage dashboard 
bei ie updated 9 15.09.2020 8:16:42 Last4monihs “ | 13.09.2020 Treemap v | |DAU 7 | [an False v | [False s] [те 
Object | Department | |  Generalinfo 14092020 User | 


Select Object to drill down 
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709 


Used Objects 


= 22,6% 

4 Prod Usage % 

329 344 
Users 

EN 9 157 

7457 Usage DAU 


System 
GP pu 11,5% 
YT p 88,5% 
Schema [Production — 7] 
Production 
cdm 


rep 0,00% 

tech 4,29% 

udm 0,08% 
Team 


Select Team to drill down 


Atlas 
Demand 
Marketplace 
Supply Eda 
Supply Taxi 


30,0196 
34,71% 


Domain 


Source Domain] 


[Source Domain] 
Source Domain] 
Business Domai 
Source Domain] 
[Source Domain] 
Source Domain) 
Business Domai 
Business Domai 
Source Domain] 
Source Domain] 
(Source Domain] 


Business Domai 


[Source Domain] 


Usage | Objects 


4 020 
3426 
2847 
2774 
2564 
2549 
2303 
2109 
2013 
1 896 
1 853 
1843 
1835 
1736 


1 707 
4 аап 


109 
106 
102 
128 
56 
85 
97 


eda ей new.bigfood 


[Unknown Domain] 


taxi etl.mdb 

taxi etl.taximeter 

in] taxi etl.geo 

taxi et.appmetrica 
eda etl.bigfood 

taxi etl.da 

in] еда etl.marketplace 
in] (ахі etl.supply 
taxi et.zendesk hiring 
taxi etl.googledocs 
eda etl new.lavka 1c 
in] core etl.geo 


taxi et.amocrm 


Usage | Objects 


37770 365 
28682 117 
19 138 178 
7573 
3723 
3 600 
3420 
2132 
2090 
1969 
1716 
1245 
1228 
1173 
1106 
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Использование объектов 


H Report period Report date Chart type DAU/CNT System Robots DMP activity Production #9 
Object usage у дазћбоа га Last4 months “ 13092020 ветар v | |DAU | Lan False “| [Falise ~ | [True 
Object | Department | | 14.09.2020 | User | 
Select Object to drill down 709 — 
5 4020 109 
Used Objects — = 
2847 102 
22,6% 2774 128 
Prod Usage % 2564 56 
2549 85 
344 2303 97 
Users 2109 42 
2013 76 
fV 9 157 1896 88 
7657 Usage DAU 1853 125 
1843 122 
System — - 
GP ШШ 11,5% 1736 115 
1707 65 
4 аяп Аға 
Production Domain 
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Теат 


Atlas 
Demand 
Marketplace 
Supply Eda 
Supply Taxi 


Source Domain] 


[Source Domain] 
Source Domain] 
Business Domai 
Source Domain] 
[Source Domain] 
Source Domain) 
Business Domai 
Business Domai 
Source Domain] 
Source Domain] 
Source Domain] 


Business Domai 


[Source Domain] 


eda_etl_new.bigfood 


[Unknown Domain] 


taxi_etl.mdb 
taxi_etl.taximeter 

in] taxi_etl.geo 
taxi_etl.appmetrica 
eda_etl.bigfood 

taxi etl.da 

in] eda etl.marketplace 
in] (ахі etl.supply 
taxi et.zendesk hiring 
taxi etl.googledocs 
eda etl new.lavka 1c 
in] core etl.geo 

taxi et.amocrm 


Usage | Objects 


37 770 
28 682 
19 138 
7573 
3723 
3 600 
3420 
2132 
2090 
1969 
1716 
1 245 
1 228 
1 173 
1106 


365 
ШУ 
178 
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Использование объектов 


H Report period Report date Chart type DAU/CNT System Robots DMP activity Production #9 
Object usage dashboard 
bei e updated 9 15.09.2020 8:16:42 Last4monihs “ | 13.09.2020 Treemap v | |DAU 7 | [an False v | [False s] [те 
Object | Department | | General info 14.09.2020 Џвег | 
Select Object to drill down | 709 — 
~ 4020 109 
485 Used Objects — = 
2847 102 
°, 
Fond 2 
4 шаа 2564 56 
2549 85 
SAVANN 344 2303 97 
Users 2109 42 
2013 76 
9 157 1896 88 
7657 Usage DAU 1 853 125 
s 1843 122 
узіет 1835 72 
GP [ 11,5% 1736 115 
үт СС 1707 85 
а яза ява 
Domain 


4,29% 
0,08% 


Теат 
Select Team to drill down 


Atlas 
Demand 
Marketplace 
Supply Eda 
Supply Taxi 
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Source Domain] 


[Source Domain] 
Source Domain] 
Business Domai 
Source Domain] 
[Source Domain] 
Source Domain) 
Business Domai 
Business Domai 
[Source Domain] 
Source Domain] 
Source Domain] 


Business Domai 


eda_etl_new.bigfood 


[Unknown Domain] 


taxi_etl.mdb 
taxi_etl.taximeter 

in] taxi_etl.geo 
taxi_etl.appmetrica 
eda_etl.bigfood 

taxi etl.da 

in] eda etl.marketplace 
in] (ахі etl.supply 
taxi et.zendesk hiring 
taxi etl.googledocs 
eda etl new.lavka 1c 
in] core etl.geo 


[Source Domain] 


taxi et.amocrm 


Usage | Objects 


37 770 
28 682 
19 138 
7573 
3723 
3 600 
3420 
2132 
2090 
1969 
1716 
1 245 
1 228 
1 173 
1106 


365 
ШУ 
178 
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Нотификация про изменения 


При изменении объекта мы знаем, кто им пользовался, и можем точечно уведомить про изменения в 
конкретном объекте в любом из доступных каналов коммуникации. 


Пример письма: 


Действие: 
удалить 


Объект: 
/home/taxi-dwh/dds/driver session geoposition/ 


Причина действия: 
В конце февраля 2021 мы остановим загрузку и перестанем поддерживать объект dds.driver session geoposition 


Альтернативные объекты: 
ісі supply state hist - водительские сессии, в которых собрано большинство атрибутов по активности водителей 
fct taxi tracker position enriched log - замена driver session geoposition, построенная на логе водительских геопозиций и fct supply state hist 


Пожалуйста, переведите ваши процессы на новые объекты и сообщите нам о сроках, когда вы сможете запланировать переезд. 


Вики как переезжать - https://wiki.yandex-team.ru/taxi/dwh/data/business/driver-session/kak-perejjti-s-driversession-na-fctsupplystatehist/ 


Удаление запланировано на конец февраля 2021 


Ссылка на тикет, в котором мы ведём работу над удалением/изменением: 


Т TAXIDWH-5913 Открыт Удалить driver session geoposition avbekker 
B этот день мы удалим/изменим объект: 
2021-02-28 
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КАК ОЦЕНИТЬ РАБОТУ 
ПРОДУКТОВОЙ КОМАНДЫ? 


Что нам важног 


| Результатом нашей работы (Объектами DWH) пользуются 


Считаем уникальные пары (пользователь, используемый DWH-o6bekT) за каждый день и убираем 
те объекты, которыми пользуется ровно один пользователь (его личная песочница). На 
результирующих данных можем посчитать: 


74 HL) HighLcade 


Весна2021 


Что нам важно? 


| Результатом нашей работы (Объектами DWH) пользуются 


Считаем уникальные пары (пользователь, используемый ОМН-объект) за каждый день и убираем 
те объекты, которыми пользуется ровно один пользователь (его личная песочница). На 
результирующих данных можем посчитать: 


- соотношение обращений к prod- и не ргоа-объектам 
показывает, насколько пользователи смотрят в ргоа объекты 


- соотношение обращений к deprecated- и не аергесакеа-объектам 
показывает, насколько мы избавляемся от легаси 


- соотношение обращений tech vs all 
показывает, насколько мы быстро расшифровываем новые данные 


- соотношение обращений СРМ+ВЕР vs all 
показывает, насколько наши целевые объекты удобны пользователям 
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Количественные КРТ команд 


Report period Report date DAU/CNT System Robots DMP activity Team 
DMP - Usage КР! - All teams 
Datasource Бање 09.05.2021 8:57:02 1аві 13 months * | 18042021 | [смт ~ | (а) ~ | [False У | [Faise “| [Al teams M 
Usage by layer - All teams ; Production Kpi Production by team 
Select Layer to drill down Select KPI to filter Select Team to filter 
All teams 
54,3196 
44,4% MoM 
Atlas 
GP 15,7596 
YT 38,55% Demand 
6 июля 20 г. 28 ceur. 20 r. 21 дек. 20 г. 15 марта 21 г. ' 
Marketplace 


Team Kpi - All teams MassService 


Select KPI to filter 


Supply Eda 
1. CDM/ REP or Summary 
Supply Taxi 
6 июля 20 г. 28 сент. 20 г. 21 дек. 20 r. 15 марта 21 г. Undefined 
19,7796 
Production Not Production 40,1% Мом 
Production - Object Object / Dep / User DAU/CNT at least 
cdm б июля 20 г. 28 сент. 20 г. 21 дек. 20 г. 15 марта 21 г. Select Object to drill down Object - | [200 
Not Deprecated dm order 758 697 
dds quality control, log 206 596 
driver session reduced 187 349 
ods — 27. dim driver 146 763 
757% МҮЛУ —— к 79,34% ріп stats 142 937 
rv 40,7% Мом dm order 136 843 
user phone 112 053 
6 июля 20 г. 28 сент. 20 г. 21 дек. 20 г. 15 марта 21 г. order proc 106 061 
rep 
Not Tech (RAW / STG) Not Production - Object 
snb disinfected cars table | 120 584 
zo EE 90,096 voytekh manager v2 115 624 
кй и : 87 : 38% voytekh pd user 102 287 
ы erc 1,695 Мом accra branding subs 100 995 
0,0296 0,0096 helsinki week 100 847 
шю 6 июля 20 г. 28 сент. 20 г. 21 дек. 20 г. 15 марта 21 г. support tickets 96 051 
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Количественные КРТ команд 


DMP = Usage KPI = АН teams Report period Report date DAU/CNT System Robots DMP activity Team 


Datasource updated at 09.05.2021 8:57:02 Lasti3 months * | 18042021 | [смт ~ | [an ~ | [False У | [Faise “| [Al teams M 


Usage by layer - All teams ; Production Kpi Production by team 
Select Layer to drill down Select KPI to filter Select Team to filter 
All teams 
54,3196 
44,4% MoM 
Atlas 
GP 15,7596 
YT 38,5596 Pamana 
6 nona 20r. 28 сент. 20 г. 21 дек. 20 г. 15 марта 21 г. ' 
Marketplace 


Team Kpi - All teams MassService 


Select КРІ to filter 


Supply Eda 
1. CDM/ REP or Summary 
Supply Taxi 
6 июля 20 г. 28 сент. 20 г. 21 дек. 20 г. 15 марта 21 г. © Undefined 
19,7796 
Production Not Production 40,1% Мом 
Production - Object Object / Dep / User DAU/CNT at least 
6 wong 20 r. 28 сент. 20 г. 21 дек. 20 г. 15 марта 21 г. Select Object to drill down Object - | [200 
Not Deprecated dm order 758 697 
quality control log 206 596 
driver session reduced 187 349 
dim driver 146 763 
79 y 34% pin_stats 142 937 
40,7% MoM dm_order 136 843 
ивег рһопе 112 053 
6 июля 20 г. 28 сент. 20 г. 21 дек. 20 г. 15 марта 21 г. order proc 106 061 
Not Tech (RAW / STG) Not Production - Object 
disinfected cars table | 120 584 
900% voytekh manager v2 115 624 
87 А 38% voytekh pd user 102 287 
71,6% Мом accra branding subs 100 995 
helsinki week 100 847 
6 июля 20 г. 28 ceur. 20 r. 21 дек. 20 г. 15 марта 21 г. support tickets 96 051 
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Количественные КРТ команд 


ОМР = Usage KPI = АН teams Report period Report date DAU/CNT System Robots DMP activity Team 


Datasource updated at 09.05.2021 8:57:02 LastiSmonths + | 18.04.2021 | [смт 7 | [an v | [False ~ | [Faise v | [Al teams М 


Usage by layer - All teams ; Production Kpi Production by team 
Select Layer to drill down Select КРІ to filter Select Team to filter 
All teams 
54,3196 
44,4% MoM 
Atlas 
GP 15,7596 
YT 38,5596 Pamana 
6 июля 20 г. 28 сент. д 21 дек. 20 г. 15 марта 21 г. ' 
Marketplace 


Team Kpi - All teams MassService 


Select KPI to filter 


Supply Eda 
1. CDM/ REP or Summary 
Supply Taxi 
6 июля 20 г. 28 сент. 20 г. 21 дек. 20 г. 15 марта 21 г. 0, Undefined 
19,7796 
Production Not Production 40,1% Мом 
Production - Object Object / Dep / User DAU/CNT at least 
cdm б июля 20 г. 28 сент. 20 г. 21 дек. 20 г. 15 марта 21 г. Select Object to drill down Object - | [200 
Not Deprecated dm order 758 697 
dds quality control log 206 596 
driver session reduced 187 349 
ods Е. ОН dim driver 146 763 
757% МҮЛУ —— к 79,34% ріп stats 142 937 
HW 40,7% Мом dm order 136 843 
user phone 112 053 
6 июля 20 г. 28 сент. 20 г. 21 дек. 20 г. 15 марта 21 г. order proc 106 061 
rep 
Not Tech (RAW / STG) Not Production - Object 
snb disinfected cars table _ 120 584 
90.0% voytekh manager v2 115 624 
3,4496 0,1796 
tech f 87 А 38% voytekh pd user 102 287 
r————— PPS 71,6% Мом accra branding subs 100 995 
T 0,0296 0,0096 helsinki week 100 847 
Hem 6 июля 20 г. 28 сент. 20 г. 21 дек. 20 г. 15 марта 21 г. support tickets 96 051 
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Количественные КРТ команд 


Report period Report date DAU/CNT System Robots DMP activity Team 
DMP - Usage КР! - All teams 
Datasource Бање 09.05.2021 8:57:02 1аві 13 months * | 18042021 | [смт ~ | [an ~ | [False У | [Faise “| [Al teams M 
Usage by layer - All teams ; Production Kpi Production by team 
Select Layer to drill down Select KPI to filter Select Team to filter 
All teams 
54,3196 
44,4% MoM 
Atlas 
GP 15,7596 
YT 38,55% Demand 
6 июля 20 г. 28 ceur. 20 r. 21 дек. 20 г. 15 марта 21 г. 
Marketplace 


Team Kpi - All teams MassService 


Select KPI to filter 


Supply Eda 
CDM / КЕР or Summary 
Supply Taxi 
6 июля 20 г. 28 сент. 20 г. 21 дек. 20 г. 15 марта 21 г. 0, Undefined 
19,7796 
Production Not Production — 40,1% Мом 
027% Production - Object Object / Dep / User DAU/CNT at least 
cdm 6 wong 20 r. 28 сент. 20 г. 21 дек. 20 г. 15 марта 21 г. Select Object to drill down Object - | [200 
0,27% Not Deprecated dm order 758 697 
995 quality control log 206 596 
, pue driver session reduced 187 349 
0,2496 Ц = m 
ods dim driver 146 763 
79 y 34% pin_stats 142 937 
^" 0,4096 40,7% Мом dm order 136 843 
user phone 112 053 
OO = 6 июля 20 г. 28 сент. 20 г. 21 дек. 20 г. 15 марта 21 г. order proc 106 061 
rep 
Not Tech (RAW / STG) Not Production - Object 
44,2596 
snb disinfected cars table _ 120 584 
voytekh manager v2 115 624 
3,44% 0,17% 
tech f 87 | 38% voytekh pd user 102 287 
r———— PI" 71,6% Мом ассга branding subs 100 995 
T 0,02% 0,00% helsinki week 100 847 
Hem 6 июля 20 г. 28 сент. 20 г. 21 дек. 20 г. 15 марта 21 г. support tickets 96 051 
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Количественные КРТ команд 


Report period Report date DAU/CNT System Robots DMP activity Team 

DMP - Usage КР! - АП teams 

Datasource аны 05.2021 8:57:02 Гав 13 months = 18.04.2021 | смт МГ v | [False ~ | [Faise * | [Al teams М 
Usage by layer - All teams ; Production Kpi Production by team 

Select Layer to drill down Select KPI to filter Select Team to filter 


All teams 
54,3196 
44,4% MoM 
256% Айав 
СР 15,75% 
УТ 38,55% Оетапа 
6 июля 20 г. 28 сент. 20 г. 21 дек. 20 г. 15 марта 21 г. ' 
Marketplace 


Team Kpi - All teams MassService 


Select KPI to filter 


Supply Eda 
CDM / REP or Summary 
Supply Taxi 
6 июля 20 г. 28 сент. 20 г. 21 дек. 20 г. 15 Mapra 21 r. б Undefined 
19,7796 
Production Not Production 40,1% Мом 
0,37% Production - Object Object / Dep / User DAU/CNT at least 
cdm 6 июля 20 г. 28 сент. 20 г. 21 дек. 20 г. 15 марта 21 г. Select Object to drill down Object ж | [200 
0,27% Not Deprecated dm order 758 697 
dds quality control, log 206 596 
их driver session reduced 187 349 
0,2496 Ц = m 
ods dim driver 146 763 
79,3496 ріп stats 142 937 
HW [ord 40.7% Мом dm order 136 843 
user phone 112 053 
x ^ 0009 — 6 июля 20 г. 28 ceur. 20 r. 21 дек. 20 г. 15 марта 21 г. order proc 106 061 
rep 
Not Tech (RAW / STG) Not Production - Object 
44,2596 
snb disinfected cars table _ 120 584 
90,0% voytekh manager v2 115 624 
3,44% 0,17% 
tech f 87 : 38% voytekh pd user 102 287 
r————— PPS 71,6% Мом ассга branding subs 100 995 
4 0,02% 000% helsinki week 100 847 
Vise 6 июля 20 г. 28 сент. 20 г. 21 дек. 20 г. 15 марта 21 г. support tickets 96 051 
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Оценка качества домена 


| Можем ввести метрики, косвенно оценивающие качество доменов 


Архитектура Качество данных Качество расчетов 


? Соблюдение naming ? Отсутствие ПД ? Использование последних 


convention инструментов плат мы 
? Скорость поставки данных струментов платфор 


? Использование | - - 
e зование legacy ? Качество документации ? Оптимальность ETL 


обьектов процессов 


› Доля витрин, построенных + Пекрытиеданных > H (d time) 
рин, р проверками качества едоступность (домпште 


на базе source domain объектов 
(RAW|ODS), ане core 
domain (DDS|CDM) 


| Итоговая оценка качества домена как взвешенная сумма критериев 
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ЕСТБ ли БОЛЕЕ ТЕХНИЧЕСКОЕ 
ПРИМЕНЕНИЕ? 


Размер объектов DWH 


Creation 
time 


YT Resource usage 
Last datasource update at 09.05.2021 12:47:34 


Resource usage by Data Weight 
Color is level 1 


mdb dbtaxi 

248 910 360 76 924 184 
taximeter 
38 861 969 

dbprocessing 

184 822 097 
tracker 

33 312 233 


85 


06.10.20: 09.05.20: 


р 


55 732 900 


Compression Codec 


Modify 967020 090520: Measure type Level 0 Erasure Codec 
time (] D |Data Weight taxi-dwh ~ | [am (All) 
Data Weight Lavala 
taximeter [ocu 461 396 626M 
2 369 506 огдег5 |77 354 550 991M 
829M order proc 184 822 097M 
taxi Т 174 292 275M 
Level 1 dbtaxi [К 157 ваз 214M 
ods 777777777975 823 484M experiment v3 log ТГ 115 733 676М 
у 719 269 322М fct experiment v3 log ІТ 75 539 389M 
- ШЕ 364 409 озом road accidents 72 328 976M 
i F3 151 896 787M driver. position 156 328 114M 
adjust 155 129 678M 
dds № 105 591 753M place surge log | 48 618 928M 
import | 24 937 593M orders, monthly 33 481 446M 
summary | 12 037 387M pin. stats 33 006 566M 
export | 5 136 157M eventlog | 29 190 059M 
backup 4 061 661M order 125 890 423M 
stg | 3943 135M orders raw | 21075 192М 
user appsession | 20 533 601M 
nublic | 2281 980M Ч 
Level 2 Level 4 
appmetrica | ШШШ 684 244 878M order рос | ШШШ 180 633 251М 
raw history В 362 342 619M orders UU 153 897 051M 
mdb | 7 309 799 824М DE 142 725 172М 
dbprocessing 1 205 020 577M 2021-04 |22 698 217М 
experiments [Ш 116 511 055M 2021-04-01 7 22 250 зоом 
dbtaxi | 80 913 305M 2020-10-01 121 744 922M 
ab experiment || 75 539 392M 2021-03-01 121554 095M 
driver session .| 67 389 687M 2020-11-01 | 20 724 729M 
food |58 429 652М 2020-09-01 120 504 719M 
tracker | 56 331 193M 2021-03 | 19 585 367M 
demand В 54 434 874M 2020-12-01 | 18 752 159M 
eda prod surge | 48 618 928М 2020-08-01 | 18 530 263M 
taximeter |40 323 583M 2021-02-01 117511 327M 
adjust |29 181 108M 2021-01-01 117 359 758М 
driver session | 24 527 922М 2020-07-01 116 876 562М 
supply | 18 543 549M 2020-12 | 16 447 576M 
2021-02 | 16 218 177M 


TAXIDWH-101.. | 12 383 775М 


HighLoade 
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Потребление ресурсов 


Month ча” КР! Тазк Мате 
Task resource usage dashboard - 
|) Datasource updated at 20.04.2021 а Апрель 2021 “ | [AVG Run, sec (А) 
AVG Run, sec by task AVG Run, sec 


Color is Layer 


7,49 
110 


13 сент. 20 г. 14 марта 21 г. 
Laver 

REP I: 861 

CDM 2652 

DDS 2477 

STG pu 803 

005 77710 

RAW 444 


More than 1 layer umm 3 960 


Business unit 


Taxi | 1873 
Еда 784 
Lavka ПОНИ [T 
More than 1 unit 775 


Undefined EU en 


өр ШЕШЕ ғ 
YT 2746 
More than 1 system 470 


Undefined [- "IB 
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МОЖНО ЛИ ПРИМЕНИТЬ 
ЗНАНИЯ ДЛЯ ОПТИМИЗАЦИИ? 


Г\ Нен оаа 
85 (инш 


Детальный слой 


| Детальный слой — ключевой для построения доменной модели 


› Хранить историю изменений сущностей 

› Отвечает за консолидацию данных между источниками 
› Устойчив к изменению в бизнесе 

› Модульный и масштабируемый 


86 Николай Гребенщиков, Ермаков Евгений, 
https:;//smartdataconf.ru/2020/spb/talks/1o78kcrupyGqcaaffámboh/ 
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Подходы к проектированию 
Сложность эксплуатации, простота внесения изменений — 


Никакого Звезда и снежинка Data Vault Anchor modeling 
? Денормализация ? Нормализация ? Строгая ? Ультранормализация 
? Можно использовать) Можно использовать не. ? Нельзя использовать 
без подготовки с минимальной ? Нельзя использовать без подготовки 
› Неустойчиво к подготовкой без подготовки » Не наде 
изменениам ? Неудобно > Не надо перестраивать 
перестраивать перестраивать 
? Публирование ? Нет дублирования 
? Минимальное 
информации 6 ? Нет дублирования информации 
дублирование 
> Her join информации информации › Ультраколичество 
› Большое количество join 


? Приемлемое 
количество Join 


легкость эксплуатации, сложность внесения изменений — 


87 Николай Гребенщиков, Ермаков Евгений, aT PAN 
https:;//smartdataconf.ru/2020/spb/talks/1o78kcrupyGqcaaffámboh/ НЕ) агол 


join 


Highly Normalized Hybrid Model 


| Выбирать оптимальный формат хранения для каждого конкретного случая 
Высокая нормализация 

Параллельная загрузка из разных источников 

Устойчив к изменению в бизнесе 

Идемпотентный к повторной загрузке 


Модульный и масштабируемый 


ч Y ч м ~ 


Может эмулировать как Data Vault, так и Anchor Modeling 


7: Сеат Data Уаш! BANCHORB 


) Атрибуты группируются B > На каждую сушность создается 
таблицы-сателлиты по апсһог-таблицас суррогатным 
принципам совместности: ключом 
изменения и/или источника > Связи только через отдельные 
и/или использования таблицы, никаких атрибутов- 

> Есть специальные таблицы только хардкор 


Роіпі-іп-Тіте и Bridge 
Николай Гребенциков, Ермаков Евгений, NS 
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Объявление сущности 


class Person(HnhmEntity): 
"""CoTpyIHHK CO staff.yandex-team.ru 


n mw 


_ layout = DdsLayout(name-'person', group-'staff') 

person id = Int(comment-'ID B Стаффе', change type-IGNORE) 

first name ru = String(comment-'Hws сотрудника', change type-UPDATE) 

last name ru = Ѕігіпо(сотпепё='Фамилия сотрудника', change type-NEW) 
login = String(comment-'Pa6ouuü login', change type-IGNORE) 

gender = String(comment-'llog', change type-UPDATE) 

tshirt size = String(comment-'PasMep футболки', change type-UPDATE) 
birthday dt = Date(comment-'/lara рождения', change type-UPDATE) 


is dismissed flg = Boolean(comment- ' Был уволен, change type-NEW) 
is homeworker flg = Boolean(comment- ' Надомник', сћһапде type-NEW) 
is robot flg = Boolean(comment- 'Робот', сһапде type-NEW) 

is trainee flg Boolean(comment-'Craxep' change type-NEW) 


_ keys  - [login] 
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а person person id a person first name ru 


PK |person sk PK |регвоп sk 
person id 


first name ru 


utc valid from dttm utc valid from dttm 


a person is homeworker flg —utc etl processed dttm .utc ей processed ditm a person is dismissed flg 
PK |person sk —source id 


Source id 


РК | регѕоп sk 


is homeworker flg 


is dissmissed flg 


utc valid from dttm 


utc valid from dttm 
utc valid to dttm 


utc valid to dttm 
.utc ей processed dttm 


.utc ей processed dttm 
Source id -вошсе id 
a person is trainee flg a person last name ru 
h person 
PK |person sk 


PK |person sk 
PK |person sk 
is trainee flg last name ru 
-н utc valid from (йт m 
utc valid from dttm PO о< utc valid from dttm 
.utc ей processed айт 
utc valid to dttm utc valid to dttm 
source id 
.utc ей processed dttm Y .utc ей processed dttm 
_зоигсе id source id 
a person is robot flg a person tshirt size 
PK |person sk PK | регѕоп sk 
is robot flg tshirt size 
utc valid from dttm utc valid from dttm 
utc valid to dttm .utc etl processed dttm 
.utc ей processed dttm Source id 
-вошсе id = 
а person birthday dt a person gender a person login key 
PK | регѕоп sk PK | регѕоп sk PK | person sk 
birthday. dt gender login 
utc valid from dttm utc valid from dttm utc valid from dttm 
utc etl processed. айт utc etl processed dttm иіс ей processed dttm t " 
cba E кы - Кы s ні) HighLoad« 
source id Source id Source id Весна 2021 
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4 person flg 
person sk 
is homeworker flg 
is robot flg 
is dissmissed flg 
is trainee flg 
utc valid from dttm 
utc valid to dttm 
.utc ей processed айт 


Source id 


g person key 
person sk 
login 
person id 
utc valid from dttm 
.utc ей processed айт 


Source id 


a person first name ru 


first name ru 


utc valid from dttm 
.utc etl processed dttm 


Source id 
V 
О 


person sk 


utc valid from dttm 
.utc etl processed dttm 


Source id 


a person last name ru 


person sk 


last name ru 

utc valid from dttm 

utc valid to dttm 

.utc etl processed dttm 


. Source id 


g person info 


PK 


person sk 

birthday. dt 

gender 

tshirt size 

utc valid from dttm 

utc valid to dttm 

.utc ей processed Әйт 


Source id 
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Оптимизационная задача 


| Вопрос: как оптимально разбить данные по группам? 


Дано (и есть в metaDWH): 
Метаданные объектов 


Маппинги полей и загрузчики 


м м 


Информация о количестве строк в объекте 
| Ограничения 
› Набор полей в метаданных объектов 


› Маппинги полей и загрузчики (группа должна загружатьоя из одного источника 


| Оптимальность 


› Будем минимизировать занимаемое место на диске 
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Синтетический пример 


| Сущность состоит из 5х полей | Дополнительные поля 


> Key —16 байт ? sk— 16 байт 
——— › Ғіеі01 - Вбайт Уа байт 


> Нес? – 128байт ? source id – 2байт 
| Hel3 | 
> Ніеіа5 – 52байт 


Итого 42 байт на строку 
Итого192 байт на строку 
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Синтетический пример 


| Сущность состоит из 5х полей | Дополнительные поля 
> Key —16 байт ? sk— 16 байт 
у Field! - 8байт > dttm — 8 байт 
? Field2 – 128байт ? source id – 2байт 
› Fileld5 — 52байт Итого 42 байт на строку 


Итого 192 байт на строку 


FIF2FS F1 | ЕЕ5 Е? | F1F3 F3 | ҒІЕ2 F1 | F1 | F5 
Field 1 Field 1 Field 2 Field 2 Field 3 


Field 2 valid_from_dttm Field 3 valid_from_dttm Field 3 valid_from_dttm Field 1 
Field 3 valid_to_dttm id | Қ valid to dttm valid from dttm valid to, dttm valid from dttm 


Field 1 Field 1 Field 1 


valid from dttm| |мана from dttm| |valid from dttm 


valid to dttm valid to dttm valid to dttm 


_ѕоигсе id -source id -source id 


valid from dttm _ѕоигсе id valid to dttm _ѕоигсе id valid to dttm _ѕоигсе id valid to dttm 
valid to dttm сей dttm -source id сей dttm сей аят 
_зочгсе id сей dttm _е dttm сей dttm 


гей dttm 


сей аит сей dttm сей dttm 
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Синтетический пример 


| Сущность состоит из 5х полей – 1000 ООО строчек | Дополнительные поля 
› Кеу —16 байт — БОО ООО сущностей ? sk - 16 байт 
>» Неі01 — Вбаит -2 изменения Ha ключ у dttm — 8 байт 
> Field2 – 128байт — 2 изменения на ключ ? source id — 2байт 
> Fileld5 — 52байт — 2 изменения Ha ключ Итого 42 байт 


Итого 185 Мбайт 


F1 | Е2Е5 F2 | Е1Е5 F3 | МЕ2 F1 | F1 | F3 


Field 1 Field 2 
Field 3 Field 1 


_etl_dttm 


200 Мбайт 240 Мбайт 240 Мбайт 240 Мбайт 280 Мбайт 
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Синтетический пример 


| Сущность состоит из 5х полей – 1000 ООО строчек | Дополнительные поля 
? Key —16 байт - 51250 сущностей > sk — 16 байт 
? Field – Вбаит -2 изменения на ключ у dttm — 8 байт 
? Field2 – 128байт – 52 изменения на ключ ? source id – гбаит 
> Fileld5 — 52байт — 2 изменения Ha ключ Итого 42 байт 


Итого 185 Мбайт 


F1 | Е2Е5 F2 | Е1Е5 F3 | МЕ2 F1 | F1 | F3 


Field 1 Field 2 
Field 3 Field 1 


_etl_dttm 


200 Мбайт 174 Мбайт 167 Мбайт 195 Мбайт 169 Мбайт 
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Синтетический пример 


| Сущность состоит из 5х полей – 1000 ООО строчек | Дополнительные поля 
? Key —16 байт -15 625 сущностей > sk — 16 байт 
? Field — Вбаит - 2 изменения на ключ ? dttm — 8 байт 
? Field2 – 128байт – 52 изменения на ключ ? source id — гбаит 
> Fileld5 — 52байт - 64 изменения на ключ Итого 42 байт 


Итого 185 Мбайт 


F1 | Е2Е5 F2 | Е1Е5 F3 | МЕ2 F1 | F1 | F3 


Field 1 Field 2 
Field 3 Field 1 


_etl_dttm 


200 Мбайт 155 Мбайт 159 Мбайт 194 Мбайт 150 Мбайт 
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Наше решение 


| Вводим атомарные операции, меняющие схему, 
| но не меняющие логику 

› Объединение групп/атрибутов 

› Соединение групп/атрибутов 


B hNhM с точки зрения использования сущности логической модели все варианты 
физического хранения ниже одинаковы. 


МЕ2Е5 F1 | ЕЕ5 Е? | РЕЗ F3 | ҒІЕ2 F1 | F1 | F5 


Field 3 Field 1 
valid_from_dttm valid from dttm 


valid to, dttm valid to, dttm 
сей dttm сей dttm 
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наше решение 


Вводим атомарные операции, меняющие схему, | Генетический алгоритм 
| но не меняющие логику ? Из текущего состояния мутациями 
) Объединение групп/атрибутов (=атомарными операциями) создаем 
стартовую популяцию 
> Соединение групп/атрибутов 


> Производим скрещивания и новые 
мутации 


~ 


Каждое состоание оцениваем на 
оптимальность (в нашем случае по 
месту) 


~ 


При подозрениях на сходимость 
останавливаемся 


Результат 


~ 


Получаем итоговое состояние, 
которое лучше текущего 


~ 


Сравниваем метаданные между 


состояниями и генерируем скрипт 
миграции 
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5 НН оаа 
Миграция – отдельный вопрос HL ср" 


~ 


ЗАЧЕМ DWH МЕТРИКИ? 
КАК РЕАЛИЗОВАЛИ? 
ЧТО ПОЛУЧИЛИ? 
СТОИЛО ЛИ ТОГО? 


1^ HighL cadis 


Т. Проблема: 


развитием крупного 
DWH сложно 
управлять 


111. Идея: 


использовать 
данные систем DWH 
в самом DWH 


(«DWH для DWH») 


101 


ТТ. Решение: 


покрыть работу 
DWH метриками 


IV. Результат: 


аналитика по работе 
и развитию самого 
DWH 


1^ High. ога 
(нь) Ha eres di 


MetaDWH 


Source Domain 


YT 
Логи 
использования 
Метаданные 
объектов 
М5 55А5 


Логи 
использования 
Метаданные 
обьектов 


Greenplum 


Логи 
использования 


Метаданные 
объектов 
Tableau 


Логи 
использования 
Метаданные 
объектов 


стан Platform 


Профиль Метаданные 
роф A Логи запусков 
пользователя тасок 
Метаданные 
Орг.Структура || Логи проверок 
9 руктур P р объектов 
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ObjectField 


Core Domain 


MetaField 


MetaObject 


CheckLogs 


GP 
ObjectField 


E EE cu 
ҮТ СР 
E 


Department 


Workbook 
Usage 


Business Domain 


Техническая информация 


Витрина по размеру 
данных 


Витрина по 
потреблению 
ресурсов 


Использование объектов 


Витрина по 
использованию 
объектов 


Витрина по 
использованию 
отчетов 


Витрины с метаданными 


Метаданные 
объектов 


Витрина по таскам 


Витрина по 
результатам 


HL) HighLoad= 


Весна2021 


Затраты 


| Стоимость реализации 


> Никаких дополнительных внедрений, 
исключительно существующие 
системы 


> Необходимы разноплановые 
специалисты (infra, de, dp, bi), 
которые уже есть в DWH 


> Абстрактно в вакууме ЗЕТЕ на О 


> Фактически порядка 10 
специалистов с +20% загрузкой 
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Результат 


| Стоимость реализации 
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Никаких дополнительных внедрений, 
исключительно существующие 
системы 


Необходимы разноплановые 
специалисты (infra, de, dp, bi), 
которые уже есть в DWH 


Абстрактно в вакууме ЗЕТЕ на О 


Фактически порядка 10 
специалистов с +20% загрузкой 


| Аналитика по ключевым аспектам 


Целевые метрики ипринятие 
стратегических решений 


управление приоритизацией через 
КРТ команд 


Ad-hoc-sanpocbi по использованию 
объектов хранилища 


Поиск технически узких мести 
оптимизация 


Интеллектуальная нотификация 
пользователей 


HL) HighLoad= 


Весна2021 


Результат 


| Стоимость реализации | Аналитика по ключевым аспектам 
> Никаких дополнительных внедрений, > Целевые метрики и принятие 
исключительно существующие стратегических решений 
системы 
> управление приоритизацией через 
> Необходимы разноплановые < КРТ команд 
специалисты (infra, de, dp, bi), 
которые уже есть в DWH > Аа-һос-запросы по использованию 


объектов хранилища 
> Абстрактно в вакууме ЗЕТЕ на О 


› Поиск технически узких мест и 
> Фактически порядка 10 оптимизация 
специалистов с +20% загрузкой 


^ Интеллектуальная нотификация 
пользователей 


| Возможно реализовать на любом отлаженном DWH 
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Резюме 
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DWH может быть источником данных для DWH 


Создать MetaDWH – не слишком трудоемкая задача (при наличии рабочего DWH) 


Обработка только логов запросов позволяет получить дашборды для анализа 
поведения пользователей 


Более сложная систематизация (домены, слои, команды) позволяет ставить 
продуктовые метрики командам 


Пример технической реализации: поиск узких мест среди объектов/тасоки 
модификация схемы в детальном слое 
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Ермаков Евгений, Яндекс Go 


СПАСИБО 


https//t.me/IJKos 
IiJKos.com 
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